朱敬一教授日前的一篇文章「大數據瞎掰症候群」,點出了大家在面對這種熱門的新名詞的時候,爭先恐後湊熱鬧的現象,其實兩年前西方世界也是類似的狀況(巨資料就像是青少年在談「性」,嗎?),這個現象說穿了,也不外是對一個還在被定義中的新議題,人人都會想表示自己懂,好在塵埃落定之前能佔有一席之地,這是新市場特有的「機會財」。
相對於大數據,data science 直到目前都還算是相對新的話題,所以我也可以來插個嘴,瞎掰一下。由於資料科學是眾多學門裡對資料分析使用比較多的子領域匯集而成,因此每個人也會因為自己的背景而有不同的詮釋。
以下是個人對於目前市場上看到的資料科學的一些商業模式的心得。
傳統的企業管理資訊系統(MIS)介入 (1) 跟 (4) 已經很久了,傳統上是屬於資管系的地盤。雖然隨著90年代以來從 data-mining、business-intelligence 到 big-data 的潮流演變,(2) 跟 (3) 都已經有一些現成可以整合到企業資訊系統裡的各種決策輔助「模組」,但是實際發揮的效用目前都只屬於「雞肋」的程度。主要原因在於,要實際跟企業決策結合,必須要有很深的企業營運 domain know-how,並不是買了一套軟體裝上去就可以用的。
IBM 做的比較像是「顧問」服務,他會派一個 team 進駐到客戶公司數個月,然後再客製化出符合客戶需求的系統。聽起來很合理,但是實際上幾個月通常是不太足以徹底認識一個行業的,也因此這類服務大獲成功的案例並不是很多。
整體來說,企業的 data mining / business intelligence 的案子絕大多數還是在做 data-pre-processing 的苦工,然後有個好聽點的名字叫做 ETL,其實大都只是格式轉換。這並不是說這類資訊系統或供應商的技術或服務能力不到位,而是要做到跟企業本身的商業流程合而為一,難度很高,最大的挑戰在於企業本身營運體系對資訊系統的想法是什麼。
最近可以再媒體上看到,比較具有話題性的資料科學內容,主要是「探索式資料分析」(2)。主要是很多自然、社會、人文學科做量化研究、資料分析的專家,都跑來做 data science 了。這些專家的專長並不是做「產品」,所以就走「製造話題」的路線,現在媒體上大多數和資料科學有關的報導,大抵都是這一類。實際上,這個模式還是可以走「媒體」的商業模式而實現獲利,像是「資料新聞學」(data journalism),不過如果要做得出色,還是得把「資料視覺化」(4) 這件事情做好。
「資料模型與預測分析」(3) 技術門檻比較高,但是因為越來越多商業化的模組出現,讓很多人可以點幾下滑鼠就看到有模有樣的結果,所以也漸漸熱門起來。這個部分目前常常跟資訊系統包在一起販售,但風險是使用的人不見得具備足夠的專業,做出來的結果不見得正確。
我個人比較看好的是 (3),除了個人專長之外,也因為這個部分很容易跟其他的產品、服務結合,但由於在產品本身上面看不到,等於是技術本身「隱形」,所以也就相對容易建立競爭門檻。但是這個路線的難處,在於導入的資料科學家本身必須要有足夠的商業嗅覺,才能迅速的掌握原本的商業模式,再從當中導入新的資料驅動的流程,創造商業價值。
這也是為什麼所有在談「資料科學家」的文章裡,都一再強調 business sense 這件事情。